对于大部分现实生活中的话语,其意图不能仅由它们的语义或句法特征决定。尽管并非所有的社会语言和务实信息都可以数字化,但至少语音特征在理解口语中是必不可少的。尤其是在诸如韩国人之类的头部最终语言中,句子 - 最终韵律在识别说话者的意图方面非常重要。本文提出了一个系统,该系统鉴于其笔录在某些情况下使用辅助声学特征,可以识别出口语的固有意图。这里的要点是对于歧视意图需要声学提示的情况。因此,提出的分类系统决定给定的话语是利用来自头部金属的语调依赖性的片段,陈述,问题,命令还是命令/命令。基于对参与数据注释的韩语的直观理解,我们构建了一个网络,该网络识别语音的意图,并通过测试句子验证其实用性。该系统如果与最新的语音识别器结合在一起,则预计将灵活地插入各种语言理解模块中。
translated by 谷歌翻译
Deep neural networks have been successfully adopted to diverse domains including pathology classification based on medical images. However, large-scale and high-quality data to train powerful neural networks are rare in the medical domain as the labeling must be done by qualified experts. Researchers recently tackled this problem with some success by taking advantage of models pre-trained on large-scale general domain data. Specifically, researchers took contrastive image-text encoders (e.g., CLIP) and fine-tuned it with chest X-ray images and paired reports to perform zero-shot pathology classification, thus completely removing the need for pathology-annotated images to train a classification model. Existing studies, however, fine-tuned the pre-trained model with the same contrastive learning objective, and failed to exploit the multi-labeled nature of medical image-report pairs. In this paper, we propose a new fine-tuning strategy based on sentence sampling and positive-pair loss relaxation for improving the downstream zero-shot pathology classification performance, which can be applied to any pre-trained contrastive image-text encoders. Our method consistently showed dramatically improved zero-shot pathology classification performance on four different chest X-ray datasets and 3 different pre-trained models (5.77% average AUROC increase). In particular, fine-tuning CLIP with our method showed much comparable or marginally outperformed to board-certified radiologists (0.619 vs 0.625 in F1 score and 0.530 vs 0.544 in MCC) in zero-shot classification of five prominent diseases from the CheXpert dataset.
translated by 谷歌翻译
Diffusion-based generative models have achieved remarkable success in image generation. Their guidance formulation allows an external model to plug-and-play control the generation process for various tasks without fine-tuning the diffusion model. However, the direct use of publicly available off-the-shelf models for guidance fails due to their poor performance on noisy inputs. For that, the existing practice is to fine-tune the guidance models with labeled data corrupted with noises. In this paper, we argue that this practice has limitations in two aspects: (1) performing on inputs with extremely various noises is too hard for a single model; (2) collecting labeled datasets hinders scaling up for various tasks. To tackle the limitations, we propose a novel strategy that leverages multiple experts where each expert is specialized in a particular noise range and guides the reverse process at its corresponding timesteps. However, as it is infeasible to manage multiple networks and utilize labeled data, we present a practical guidance framework termed Practical Plug-And-Play (PPAP), which leverages parameter-efficient fine-tuning and data-free knowledge transfer. We exhaustively conduct ImageNet class conditional generation experiments to show that our method can successfully guide diffusion with small trainable parameters and no labeled data. Finally, we show that image classifiers, depth estimators, and semantic segmentation models can guide publicly available GLIDE through our framework in a plug-and-play manner.
translated by 谷歌翻译
具有对比目标的训练前视觉模型已显示出令人鼓舞的结果,这些结果既可以扩展到大型未经切割的数据集,又可以传输到许多下游应用程序。以下一些作品针对提高数据效率,通过添加自学意义来提高数据效率,但是在这些作品中的单个空间上定义了对比度损失(图像文本)对比度损失和内域(图像图像)对比度损失,因此许多可行的可行性监督的组合被忽略了。为了克服这个问题,我们提出了Uniclip,这是对对比语言图像预训练的统一框架。 Uniclip将域间对和域内对的对比损失整合到一个单一的通用空间中。 Uniclip的三个关键组成部分解决了整合不同域之间对比度损失时发生的差异:(1)增强感知功能嵌入,(2)MP-NCE损失和(3)域相似性度量。 Uniclip的表现优于以前的视觉语言预训练方法,在下游任务的各种单模式和多模式上。在我们的实验中,我们表明每个组成的分支都对最终性能有很好的贡献。
translated by 谷歌翻译
尽管最近的凝视估计方法非常重视从面部或眼睛图像中提取与目光相关的特征,但如何定义包括凝视相关组件在内的特征是模棱两可的。这种模糊性使该模型不仅学习了与之相关的功能,而且还学会了无关紧要的功能。特别是,这对于跨数据库的性能是致命的。为了克服这个具有挑战性的问题,我们提出了一种基于数据驱动的方法,该方法具有数据驱动的方法,该方法具有生成的对抗网络反转的分解特征,以选择性地利用潜在代码中的目光相关特征。此外,通过利用基于GAN的编码器生成过程,我们将输入图像从目标域转移到源域图像,而凝视估计器充分了解了。此外,我们建议在编码器中凝视失真损失,以防止凝视信息的失真。实验结果表明,我们的方法在跨域凝视估计任务中实现了最新的凝视估计精度。该代码可在https://github.com/leeisack/latentgaze/上找到。
translated by 谷歌翻译
最近的成功表明,可以通过文本提示来操纵图像,例如,在雨天的晴天,在雨天中被操纵到同一场景中,这是由文本输入“下雨”驱动的雨天。这些方法经常利用基于样式的图像生成器,该生成器利用多模式(文本和图像)嵌入空间。但是,我们观察到,这种文本输入通常在提供和综合丰富的语义提示时被瓶颈瓶颈,例如将大雨与雨雨区分开。为了解决这个问题,我们主张利用另一种方式,声音,在图像操纵中具有显着优势,因为它可以传达出比文本更多样化的语义提示(生动的情感或自然世界的动态表达)。在本文中,我们提出了一种新颖的方法,该方法首先使用声音扩展了图像文本接头嵌入空间,并应用了一种直接的潜在优化方法来根据音频输入(例如雨的声音)操纵给定的图像。我们的广泛实验表明,我们的声音引导的图像操纵方法在语义和视觉上比最先进的文本和声音引导的图像操纵方法产生更合理的操作结果,这通过我们的人类评估进一步证实。我们的下游任务评估还表明,我们学到的图像文本单嵌入空间有效地编码声音输入。
translated by 谷歌翻译
预训练的代表是现代深度学习成功的关键要素之一。但是,现有的关于持续学习方法的作品主要集中在从头开始逐步学习学习模型。在本文中,我们探讨了一个替代框架,以逐步学习,我们不断从预训练的表示中微调模型。我们的方法利用了预训练的神经网络的线性化技术来进行简单有效的持续学习。我们表明,这使我们能够设计一个线性模型,其中将二次参数正则方法作为最佳持续学习策略,同时享受神经网络的高性能。我们还表明,所提出的算法使参数正则化方法适用于类新问题。此外,我们还提供了一个理论原因,为什么在接受跨凝结损失训练的神经网络上,现有的参数空间正则化算法(例如EWC表现不佳)。我们表明,提出的方法可以防止忘记,同时在图像分类任务上实现高连续的微调性能。为了证明我们的方法可以应用于一般的持续学习设置,我们评估了我们在数据收入,任务收入和课堂学习问题方面的方法。
translated by 谷歌翻译
我们提出了一种基于圆柱约束的小肠路径跟踪的新的基于图的方法。与其他器官相比,小肠的独特特征是自身沿其路线之间的接触,这使得路径跟踪与墙壁的模糊外观一起困难。它会导致轨道路径在依靠墙壁检测(例如墙壁检测)之类的低级特征时轻松越过墙壁。为了解决这个问题,使用小肠过程中安装的一系列气缸用于指导跟踪到更可靠的方向。它使用新的成本函数作为软约束实现。对所提出的方法进行了针对小肠从小到末端进行10次腹部CT扫描的基础真相路径的评估。与基线方法相比,所提出的方法在跟踪路径而没有犯错的情况下显示出明显的改进。对于与小肠分割有关的两种不同的设置,观察到了6.6%和17.0%的改善。
translated by 谷歌翻译
我们提出了一种从荧光X射线序列中提取冠状动脉血管的方法。给定源框架的血管结构,随后框架中的血管对应候选者是由新型的分层搜索方案生成的,以克服孔径问题。最佳对应关系是在马尔可夫随机字段优化框架内确定的。由于对比剂的流入,进行后处理以提取新近可见的血管分支。在18个序列的数据集上进行的定量和定性评估证明了该方法的有效性。
translated by 谷歌翻译
大脑磁共振成像(MRI)扫描的自动分割和体积对于诊断帕金森氏病(PD)和帕金森氏症综合症(P-Plus)至关重要。为了提高诊断性能,我们在大脑分割中采用了深度学习(DL)模型,并将其性能与金标准的非DL方法进行了比较。我们收集了健康对照组(n = 105)和PD患者(n = 105),多个全身性萎缩(n = 132)和渐进性超核麻痹(n = 69)的大脑MRI扫描。 2020.使用金标准的非DL模型FreeSurfer(FS),我们对六个脑结构进行了分割:中脑,PON,CAUDATE,CAUDATE,PUTATATE,pALLIDUM和THIRD CNTRICLE,并将其视为DL模型的注释数据,代表性V -net和unet。计算了分化正常,PD和P-Plus病例的曲线下的骰子分数和面积。每位患者六个大脑结构的V-NET和UNETR的分割时间分别为3.48 +-0.17和48.14 +-0.97 s,比FS(15,735 +-1.07 s)快至少300倍。两种DL模型的骰子得分都足够高(> 0.85),它们的疾病分类AUC优于FS。为了分类正常与P-Plus和PD与多个全身性萎缩(小脑型)的分类,DL模型和FS显示出高于0.8的AUC。 DL显着减少了分析时间,而不会损害大脑分割和差异诊断的性能。我们的发现可能有助于在临床环境中采用DL脑MRI分割并提高大脑研究。
translated by 谷歌翻译